Филогенетические деревья, реконструированные разными способами

На главную страницу семестра

Построение дерева по алгоритму UPGMA

В этом задании использовались файл с "эталонным" множественным выравниванием домена (файл EXOIII.msf, см. Сравнение выравнивания программы ClustalWс "эталонным" выравнивания из SMART ), идеальный вариант - выравнивание пяти полных доменов, а так же матрица попарных совпадений последовательностей в этом выравнивании.
Эталонное выравнивание домена Exonuc_X-T (ID=PF00929):

                                                                                                                                                                                                           
                                            *                 2 0                   *                 4 0                   *                 6 0                   *                 8 0                  
D P O 3 _ B A C S U   :   T Y V F D V E T T G - L S A V Y D T I I E L A A V K V K G G E - - - - - I I D K F E A F A N P - - H R P L S A T I I E L T G I T D D M L Q D - - A P D V V D V I R D F   :     7 3
D P O 3 E _ R H O C   :   T F V F D T E T T G L F P T G G D E I V Q I A A V R I V N G R - - - R V A G E V F D T L V N P - - G R P I P A A S T A V H G I T E A M V A T - - A P A I A E V G R R F   :     7 6
D P O 3 E _ T R E P   :   A F A F D T E T T G - L K A E E D R I I E I G A V T F D R K G - - - - - I I A R F S T L I F P - - D R A I P P D V S K I N H I T D D M L V N - - K P R F C E I V S D F   :     7 3
R N T _ E C O L I /   :   Y P V I D V E T A G - F N A K T D A L L E I A A I T L K M D E Q G W L M P D T T L H F H V E P F V G A N L Q P E A L A F N G I D P N D P D R G A V S E Y E A L H E I F   :     8 2
Y G 5 S _ Y E A S T   :   H I A L D C E M C L - S E Q G - L V L T R I S L V N F D N - - - - - - - - E V I Y E E L V K P - - D V P I V D Y L T R Y S G I T E E K L T V G A K K T L R E V Q K D L   :     7 1
                                  D   E t   g             d   6     6   a 6                                           P           6                 g I t                             6       f            
                                                                                                                                                                                                           
                                      *               1 0 0                   *               1 2 0                   *               1 4 0                   *               1 6 0                        
D P O 3 _ B A C S U   :   R E W I G D D I - - - - - - - - L V A H N - A S F D M G F L N V A Y K K L L E V E K A K N P - - V I D T L E L G R F L Y P - - E F K N H R L N T L C K K F D I E L T Q   :   1 4 3
D P O 3 E _ R H O C   :   H K F A E G A V - - - - - - - - L V A H N - A P F D L E F L R R K E L L - I G K N - F D N P - - V L D T V L L S A V V F G A - - A E G H S L D A L T H R L G I T I P E   :   1 4 4
D P O 3 E _ T R E P   :   S R F I K G T V - - - - - - - - L V A H N - A N F D V E F L N A E L S L - C K K Q P L S H K - - V V D T Y A M A Q A V F P G L G R H Q Y R L Q N L A L Q F G L T V H A   :   1 4 4
R N T _ E C O L I /   :   K V V R K G I K A S G C N R A I M V A H N - A N F D H S F M M A A A E R A S L K R N P F H P F A T F D T A A L A G L A L G - - - - - Q T V L S K A C Q T A G M D F D S   :   1 5 9
Y G 5 S _ Y E A S T   :   L K I I S R S - - - - - - - - D I L I G H S L Q N D L K V M K L K H P - - - - - - - - - - - - L V V D T A I I Y H H K A G - - D P F K P S L K Y L S E T F L N K S I Q   :   1 3 2
                                                          6 6 a h n   a   f D     f 6                                     v   D T     6                             L     l                                
                                                                                         
                                *               1 8 0                   *                
D P O 3 _ B A C S U   :   H - - H R A I Y D T E A T A Y L L L K M L K D A A E   :   1 6 7
D P O 3 E _ R H O C   :   E A R H T A L G D T V A T A E A F L R L L P A L K A   :   1 7 0
D P O 3 E _ T R E P   :   - - A H R A E D D A R V C M E L F T T M I A H H A K   :   1 6 8
R N T _ E C O L I /   :   T Q A H S A L Y D T E R T A V L F C E I V N R W K R   :   1 8 5
Y G 5 S _ Y E A S T   :   N G E H D S V E D A R A C L E L T K L K I L N G L A   :   1 5 8
                                H   a     D             l         6                      
  1. Создали Excel-книгу UPGMA.xls,: Для этого сначала мы построили матрицу эволюционных расстояний между последовательностями исследуемого выравнивания (считали эволюционным расстоянием величину D = 100 - P, где P - процент идентичности). Матрицу попарных совпадений вы можете увидеть на листе "Distances". Рядом построена матрица попарных эволюционных расстояний.
  2. По алгоритму UPGMA создали (шаг за шагом, см. страницу "UPMGA") ряд таблиц, которые помогут нам построить правильную скобочную формулу, которая всвою очередь поможет создать филогенетическое дерево.
  3. Получили правильную скобочную формулу:
    ((((DPO3_BACSU:33.5,DPO3E_RHOCA:33.5):0.5,DPO3E_TREPA:34):5.125,RNT_ECOLI:39.125):3.6875,YG5S_YEAST:42.8125);

Cравние двух деревьев

Как мы можем убедиться, существует ряд программ для графической визуализации дерева по его правильной скобочной структуре. На данном занятии мы использовали 2 программы из Online-версии пакета Phylip: drawtree и drawgram (все параметры брались при этом по умолчанию).



Сравнение полученных изображений:

Главное отличие этих двух деревьев заключается в том, что одно из них является укорененным (изображение справа), а второе неукорененное, и представленно ввиде круговой схемы (изображение слева). При этом расстояния между организмами ничем не отличается. Левая схема не подразумевает, что существует некий предковый организм (он, конечно, существует, но вопрос, где его расположить на схеме, остается открытым), эта схема имеет вид звезды,на мой взгляд, для того, чтобы показать то что корень может выходить из различных мест. На правой схеме мы видим корень, в этом месте по предположению программы произошло расхождение от некого общего предка.
Надо отметить некоторые особенности построения деревьев с корнем, вертикальные линии ,по-видимому, не несут какой-либо смысловой нагрузки (проверено рядом экспериментов с программой), а значимы лишь горизонтальные линии, которые и показывают расстояние между последовательностями (глядя на мою скобочную структуру и соотнося ее с деревом, мы можем проследить все развитие изменения расстояний от последовательности к последовательности), даже, по-видимому, не важно из каких мест выходят ответвления, это нужно только для приемлимой визуализации данного дерева (например, мы видим, что корень почему-то выходит не из середины вертикальной линии и даже при использовании данной скобочной структуры без расстояний, все равно получаем примерно ту же картину).
Мое представоение о данном дереве лучше отражает правая схема, так как по нему мы можем проследить эволюцию данных белков, при этом она не теряет эволюционных расстояний между организмами, то есть вообще она более информативна.
Глядя на укорененное дерево, построим возможный эволюционный путь:
От гипотетической общей предковой последовательности произошли последовательности YG5S_YEAST и некая другая гипотетическая последовательность II, которая , затем вновь разделилась на две последовательности, одна из котрых RNT_ECOLI, а вторая снова является предковой последовательностью (гипотетическая последовательность III) для последовательностей DPO3E_TREPA и наконец для последней гипотетической последовательности IV, которая в свою очередь является предковой для последовательностей DPO3E_RHOCA и DPO3_BASCU.

Деревья, построенные по методу ближайших соседей

  1. Перевели эталонное выравнивание в формат FASTA.
  2. Построили множественное выравнивание, и получили руководящее дерево, которое содержало файл со скобочной структурой дерева, которую мы далее визуализировали программами построения деревьев (при этом использовались те же программы, что и в предыдущем задании).


Орисание полученных изображений

Как и в прошлый раз мы получили два дерева, одно из которых было укорененное, а второе неукорененное. Разобраться в этих последовательностях довольно сложно, так как расстояния между некоторыми последовательностяим довольно малы и сложно оценить взглядом, откуда что выходит. Руководствуясь скобочноцй структурой из полученного файла удаллось разобраться с этим, и вот что оказалось, данный пример принадлежит к классу таких случаев, когда время разделения установить сложно, и три последовательности выходят из одной предковой последовательности (что очень мало вероятно, как одновременное происхождение двух других последовательностей из третьей, на самом же деле просто эт время мало). Таким образом прослеживаем эволюцию:
Из гипотетической предковой последовательности получилось сразу три последовательности, одна из которых DPO3E_TREPA, а две другие являются предковыми для двух групп, первая - DPO3_BASCU и DPO3E_RHOCA, а вторая - YG5S_YEAST и RNT_ECOLI, при этом мы видим, что расхождение на группы произошло довольно таки быстро. При этом, пользуясь данным алгоритмом, мы учитываем различные скорости расхождения организмов, поэтому мы видим что организмы расходились примерно с одинаковыми скоростями, только YG5S_YEAST несколько быстрее, что мы и видим на изображениях.

Сравнение NJ-дерева с UPGMA-деревом:

Сравнивая полученные деревья в первую очередь надо отметить то, что они описывают различные эволюционные пути (описание их можно прочитать выше), при этом основное отличие заключается в том, что последовательность YG5S_YEAST во втором случае имеет общего предка с последовательностью RNT_ECOLI а не отстоит от всех остальных последовательностей, как в первом случае ( правда она все равно удалена довольно далеко за счет того, что во втором случае в отличие от первого учитывается различная скорость эволюционирования), то есть мы можем сказать, что эти белки образуют одну группу. Приятно видеть то что белки первая часть названия которых DPO3 ( ДНК полимеразы III ) объединяются в одну группу, что также подтверждает результаты описания выравниваний этих белков в одном из предыдущих заданий.
Если взглянуть на "звездчатые" диаграммы, то можно заметить, что в общих чертах деревья похожи и различен как раз тот момент времени, когда эти последовательности разошлись во времени (а разошлись они все за довольно короткий промежуток времени), и выделились две группы (см. выше). Второе важное различие (оно, кстати, уже указывалось) заключается в том что в дереве UPGMA длина линий (веток) одинакова для двух последовательностей объединяемых в кластер, а во втором случае длина различна. По-видимому, это повлияло на то, что белки YG5S_YEAST и RNT_ECOLI были объединены в одну группу.


©Метелев Михаил